智能论文笔记

Plant Species Recognition with Optimized 3D Polynomial Neural Networks and Variably Overlapping Time-Coherent Sliding Window

Habib Ben Abdallah , Christopher J. Henry , Sheela Ramanna

分类：计算机视觉 | 机器学习

2022-03-04

最近，开发了EAGL-I系统是为了迅速创建大量标记的植物数据集，该数据集旨在被农民和研究人员普遍使用，以创建农业中的AI驱动解决方案。结果，由40,000张图像组成的公开植物识别数据集与系统一起创建了由8种植物物种组成的不同尺寸的图像，以证明其能力。本文提出了一种新颖的方法，称为可变重叠的时间连续滑动窗口（fotcsw），该方法将由图像组成的图像转换为具有可变大小的图像的数据集，为3D表示，具有适合卷积神经网络的固定大小，并证明了此表示形式是比将数据集的图像调整到给定尺寸的信息更丰富。我们从理论上正式化了该方法的用例及其固有的属性，我们证明了它对数据具有过采样和正则化效果。通过将Fotcsw方法与最近提出的称为1维多项式神经网络的机器学习模型的3D扩展相结合，我们能够创建一个模型，该模型在数据集中创建的数据集中达到了99.9％的最新精度， EAGL-I系统超过了众所周知的建筑，例如重新系统和启动。此外，我们创建了一种启发式算法，该算法能够降低任何预先训练的N维多项式神经网络，并在不改变其性能的情况下压缩它，从而使模型更快，更轻。此外，我们确定当前可用的数据集无法以目前的形式用于机器学习，这是因为训练集和测试集之间存在很大的类不平衡。因此，我们创建了一个特定的预处理和模型开发框架，使我们能够将准确性从49.23％提高到99.9％。

translated by 谷歌翻译

使用文本，图像，音频，视频等多种方式的多模式深度学习系统，与单独的方式（即单向）系统相比，显示出更好的性能。多式联机学习涉及多个方面：表示，翻译，对齐，融合和共同学习。在当前多式联机学习状态下，假设是在训练和测试时间期间存在，对齐和无噪声。然而，在现实世界的任务中，通常，观察到一个或多个模式丢失，嘈杂，缺乏注释数据，具有不可靠的标签，并且在训练或测试中稀缺，或两者都稀缺。这种挑战是由称为多式联合学习的学习范例解决的。通过使用模态之间的知识传输，包括其表示和预测模型，通过从另一个（资源丰富的）方式利用来自另一（资源丰富的）模型的知识来帮助实现（资源差）模型的建模。共同学习是一个新兴地区，没有专注的评论，明确地关注共同学习所解决的所有挑战。为此，在这项工作中，我们对新兴的多式联合学习领域提供了全面的调查，尚未完整探讨。我们审查实施的实施，以克服一个或多个共同学习挑战，而不明确地将它们视为共同学习挑战。我们基于共同学习和相关实施解决的挑战，展示了多式联合学习的综合分类。用于包括最新的技术与一些应用程序和数据集一起审查。我们的最终目标是讨论挑战和观点以及未来工作的重要思想和方向，我们希望对整个研究界的有益，重点关注这一令人兴奋的领域。

translated by 谷歌翻译

被称为超声心动图的心脏成像是一种非侵入性工具，用于生成包括图像和视频的数据，心脏病专家用来诊断心脏异常，尤其是心肌梗死（MI）。超声心动图机可以提供大量数据，需要由心脏病专家快速分析，以帮助他们做出诊断和治疗心脏病。但是，获得的数据质量取决于购置条件以及患者对设置说明的响应能力。这些限制对医生的挑战尤其是当患者面对MI并且他们的生命受到威胁时。在本文中，我们提出了一种基于卷积神经网络（CNN）的创新实时端到端全自动模型，以根据由左心室（LV）的区域壁运动异常（RWMA）检测到MI，该模型是由左心室（LV）的视频中的。超声心动图。我们的模型是由2D CNN组成的管道实现Mi。我们在由165个超声心动图视频组成的数据集上培训了两个CNN，每个CNN从一个独特的患者中获得。 2D CNN在数据分割方面达到了97.18％的精度，而3D CNN获得了90.9％的精度，100％的精度和95％的召回率。我们的结果表明，创建一个完全自动化的MI检测系统是可行且有利的。

translated by 谷歌翻译

除了极其非线性的情况外，如果不是数十亿个参数来解决或至少要获得良好的解决方案，并且众所周知，众所周知，众所周知，并且通过深化和扩大其拓扑来实现复杂性的神经网络增加更好近似所需的非线性水平。然而，紧凑的拓扑始终优先于更深的拓扑，因为它们提供了使用较少计算单元和更少参数的优势。这种兼容性以减少的非线性的价格出现，因此有限的解决方案搜索空间。我们提出了使用自动多项式内核估计的1维多项式神经网络（1DPNN）模型，用于1维卷积神经网络（1dcnns），并且从第一层引入高度的非线性，这可以补偿深度的需要和/或宽拓扑。我们表明，这种非线性使得模型能够产生比与音频信号相关的各种分类和回归问题的常规1dcnn的计算和空间复杂性更好的结果，即使它在神经元水平上引入了更多的计算和空间复杂性。实验在三个公共数据集中进行，并证明，在解决的问题上，所提出的模型可以在更少的时间内从数据中提取比1dcnn更多的相关信息，并且存储器较少。

translated by 谷歌翻译